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认 知 诊断 模型 Q 矩阵 修正 : 
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Q iE MEE CDM 的 核心 元 素 之 一 , 反映 了 测验 的 内 部 结构 和 内 容 设计 , 通常 由 领域 专家 根据 经 验 进 行 主观 


界定 , 因此 需要 对 可 能 存在 的 错误 进行 修正 。 本 研究 提出 了 一 种 新 的 Q 矩阵 修正 方法 一 一 基于 完整 经 验 交 叉 相 乘 
HUBER] Wald-XPD 方法 。 采 用 Monte Carlo 模拟 检验 了 新 方法 的 表现 , 并 与 同类 方法 进行 了 比较 。 研 究 表明 : 
新 开发 的 Wald-XPD 方法 在 Q 矩阵 恢复 率 、 保 留 正确 标定 属性 的 比例 以 及 修正 错误 标定 属性 的 比例 这 3 个 主要 指 
标 上 均 有 较 好 的 表现 ， 且 整体 上 优 于 其 他 方法 , 尤其 是 在 修正 错误 标定 的 属性 方面 。 通 过 实证 数据 展示 了 

Wald-XPD 方法 在 Q 矩阵 修正 中 的 良好 表现 。 总 之 , 本 研究 为 Q 矩阵 修正 提供 了 有 效 的 方法 。 
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1 引言 


经 典 心理 测量 理论 及 项 目 反 应 理论 采用 单一 的 
测验 分 数 来 描述 被 试 在 某 个 阶段 的 学 习 效 果 。 作为 
新 一 代 心 理 测量 理论 , 认 知 诊断 (cognitive diagnosis) 
的 主要 目的 是 提供 关于 被 试 的 多 维 、 细 粒度 潜在 特 
质 ( 如 知识 、 认 识 过 程 、 技 能 、 策 略 、 人 格 特 质 或 
心理 障 但 等 , 统称 为 属性 ) 的 诊断 性 评价 信息 ， 认 
知 诊断 模型 (cognitive diagnostic model, CDM) 是 研 
究 者 为 了 实现 以 上 主要 目的 而 提出 的 一 类 离散 潜 
变量 模型 (Rupp et al., 2010)。 目 前 , CDM 已 广泛 应 
用 于 心理 、 教 育 、 精 神 病理 学 等 领域 (Sorrel et al., 
2016). 

Q FEMME CDM 的 核心 元 素 之 一 , 定义 了 测验 
所 测 属性 与 项 目 之 间 的 对 应 关系 (Tatsuoka，1990)， 
它 不 仅 决定 着 测验 的 内 部 结构 ,也 关系 到 认 知 诊断 
结果 的 准确 性 ,正确 设 定 的 Q 和 矩阵 是 获得 准确 的 模 
型 参数 估计 和 被 试 分 类 的 关键 因素 (Na&jera et al., 
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2020), 错误 设 定 的 Q 矩阵 会 产生 很 多 不 良 的 影响 ， 
如 降低 模型 参数 估计 准确 性 、 导 致 较 差 的 模型 - 数 
据 拟 合 、 导 致 错误 的 属性 估计 和 被 试 分 类 等 (Chiu， 
2013; de la Torre, 2009; Rupp & Templin, 2008), 
CDM 中 获取 Q 矩阵 的 方法 主要 是 由 领域 专家 根据 
经 验 构 建 (Sorrel et al., 2016), 但 这 种 方法 包含 一 定 
的 主观 性 。 KERF, 原始 Q 矩阵 有 较 大 可 能 包含 一 
些 错误 设 定 (Rupp & Templin, 2008)， 如 何 修正 原始 
Q 和 矩阵 中 可 能 存在 的 错误 是 研究 者 面临 的 重要 理 
论 与 现实 问题 。 

为 了 获得 正确 设 定 的 Q 怎 阵 ,， 国 内 外 研究 者 提 
出 了 多 种 修正 方法 ( 李 佳 等 , 2021)。 根 据 是 否 采用 
参数 化 的 CDM 描述 Q 矩阵 与 观察 作答 数据 之 间 的 
关系 ,可 以 将 Q MMB IETS IAW: 参数 化 和 
非 参数 化 的 修正 方法 ,前 者 需要 参数 化 CDM 的 参 
与 , 后 者 不 需要 。 例 如 ,， 欧 氏 距 离 法 (Chiu, 2013), 
海 明 距 离 ( 汪 大 勋 ， 高 烛 亮 , BERT SF, 2018)、 交 差 
方法 (intersection and difference; Wang et al., 2018) 


* 国家 自然 科学 基金 青年 项 目 (31900794)、 山 东 省 自然 科学 基金 项 目 (ZR2019BC084) 资 助 。 
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等 属于 非 参数 化 的 修正 方法 。 一 般 而 言 ， 非 参数 化 
方法 比较 的 是 理想 反应 与 观察 作答 反应 之 间 的 拟 
合 ， 从 而 达到 修正 Q 矩阵 的 目的 。 在 非 参数 化 方法 
中 ,理想 反应 大 多 都 是 在 限制 条 件 较为 严格 的 情景 
下 获得 的 ,例如 ， 限 定 所 有 项 目 只 适用 于 茶 个 或 茶 
几 个 特殊 的 ( 亦 称 ,， 简化 的 )CDM。 换 言 之 , 非 参数 
化 的 Q 和 矩阵 修正 方法 具有 样本 量 要 求 小 、 易 实现 等 
优点 , 但 严格 的 前 提 条 件 限制 了 这 些 方法 的 拓展 性 
及 实用 性 ,参数 化 Q 矩阵 修正 方法 是 在 参数 化 模型 


bagging method) 的 耗 时 可 能 会 特别 长 ; 模拟 人 研究 表 
明 iGDI 的 表现 与 JSD 的 表现 相当 、 甚 至 在 一 些 条 
件 下 优 于 USD (Terzi, 2017); 相对 拟 合 统计 量 方法 
需要 比较 测验 的 所 有 项 目 关 于 属性 所 有 可 能 组 合 
的 相对 拟 合 值 ， 尽管 研究 者 提出 一 些 减少 计算 次 数 
的 方法 , 但 是 在 测验 长 度 较 长 或 属性 数量 较 多 的 情 
OLR, 计算 耗 时 仍 有 可 能 特别 长 6GDI 在 饱和 CDM 
框架 下 采用 单个 项 目 所 有 可 能 的 属性 掌握 模式 中 
正确 答对 概率 的 方差 来 衡量 Q 矩阵 中 相对 应 的 q 


框架 下 , 使 用 各 种 统计 量 估计 出 最 能 拟 合 观 察 数据 
的 Q 和 矩阵。 在 特殊 的 CDM 框架 下 , 如 DINA, 
DINO,R-RUM 等 (de la Torre, 2011), 人 研究 者 开发 的 
参数 化 修正 方法 主要 有 : 6 法 (de la Torre, 2008), y 
法 ( 涂 冬 波 等 , 2012)、S 统计 量 方法 (Liu et al., 2012), 
迭代 修正 序列 搜索 (iterative modified sequential 
search; Terzi & de la Torre, 2018), RMSEA 统计 量 
(Kang et al., 2019), WIXI Æ R 法 (Yu & Cheng, 
2020)、 最 优 反 应 分 布 纯度 方法 ( 李 佳 等 , 2022) 等 。 
在 饱和 CDM 框架 下 (如 ，G-DINA，generalized 
deterministic input noisy output “and” gate; de la 
Torre, 2011) MW BRL Q 和 矩阵 修正 方法 主要 包括 : 
GDI (G-DINA discrimination index) 方 法 (de la Torre 
& Chiu, 2016) 、 残 差 方法 (Chen, 2017), iJSD (iterative 
Jensen-Shannon divergence)7; i; & iGDI (iterative 
GDDZ;iX(Terzi, 2017), TLP (truncated L, penalty 
function)7; i: (Xu & Shang, 2018)、 相 对 拟 合 统 计量 
方法 ( 汪 大 勋 等 , 2020)、Ma 和 de la Torre (2020) 提 出 
的 GDI 和 基于 不 完整 信息 矩阵 (incomplete information 
matrix) Wald 检验 相 结 合 的 Stepwise 方 法 (为 了 便 
于 理解 且 与 本 文中 提出 的 新 方法 加 以 区 分 ， 将 
Stepwise 方法 称 为 Wald-IC Wik), VAR Hull 方法 
(Najera et al., 2021) 等 。 尽 管 一 些 参数 化 的 修正 方法 
可 能 存在 运算 量 大 、 速 度 慢 的 不 足 之 处 , 但 是 ,这 
类 修正 方法 尤其 是 在 饱和 的 CDM 框架 下 开发 的 方 
法 的 优点 在 于 灵活 性 高 、 不 需要 非 参 数 化 方法 那样 
严格 的 前 提 假 设 。 因 为 饱和 模型 包含 多 类 特殊 模型 
作为 特例 ， 且 在 Q 和 矩阵 没有 错误 设 定 或 存在 少量 错 
误 时 , 可 以 较为 容易 地 通过 模型 比较 的 方法 获得 恰 
当 的 特殊 模型 。 

在 饱和 CDM 框架 下 开发 的 以 上 8 种 参数 化 Q 
矩阵 修正 方法 中 , 残 差 方 法 对 于 属性 过 度 设 定 不 敏 
感 且 在 测验 长 度 较 短 时 统计 检验 力 可 能 会 偏 低 ; 当 
样本 量 较 小 时 ，TLP 方法 会 高 估 错 误 设 定 项 目的 数 
量 且 用 于 减少 错误 报告 率 的 重 抽样 校正 方法 (bootstrap 


向 量 的 区 分 能 力 , 选择 有 最 大 区 分 能 力 的 q 辐 量 作 
为 正确 设 定 的 q 向 量 。 相对 于 GDI 而 言 , iGDI 的 估 
计 效 果 有 了 一 定 程 度 的 改善 , 但 是 这 类 方法 的 主要 
缺点 是 需要 人 为 地 确定 一 个 截止 值 GN 帮 era et al., 
2019)。 以 GDI 研究 为 基础 , Ma 和 de la Torre (2020) 
将 Q 和 矩阵 修正 的 视角 延伸 到 多 级 计 分 模型 ， 在 
seq-GDINA 模型 (the sequential GDINA model; Ma 
& de la Torre, 2016) 下 提出 了 GDI 和 基于 不 完整 信 
ABER] Wald 检验 相 结 合 的 Wald-IC 方法 。 
Wald-IC 方法 首先 采用 GDI 方 法 从 单一 属性 的 q 向 
量 中 确定 第 一 个 所 需 属性 ， 再 逐步 多 次 采用 Wald 
统计 量 决定 是 否 增加 或 删除 属性 来 选择 恰当 的 q 问 
量 。 即 , 在 单个 项 目 上 Wald-IC 仅 需 执行 玉 - 1 个 
统计 检验 即 可 完成 。 Hull 方法 试图 在 模型 拟 合 与 简 
约 之 间 找 到 一 种 平衡 以 此 选择 恰当 的 q 向 量 , 人 研究 
# (Najera et al.，2021) 通 过 模拟 研究 比较 了 GDI, 
Wald-IC 以 及 Hull 方法, 结果 表明 在 大 多 数 条 件 下 
Hull 的 表现 最 好 、Wald-IC 的 表现 稍 逊 于 Hull, 但 
是 ，Hull 和 Wald-IC 在 修正 错误 标定 的 属性 方面 的 
表现 较 差 , 尤其 是 Q 矩阵 中 存在 较 多 错误 设 定时 。 
人 研究 者 (Ma & de la Torre, 2020; Najera et al., 2021) 
PEM Wald-IC Sethe Ze f HL se 88 f ET 
的 。 先 前 研究 表明 ， 采 用 不 完整 信息 和 矩阵 构建 的 统 
计量 在 后 续 人 研究 中 会 导致 一 些 问题 ， 如 低估 模型 参 
数 标准 误 (Philipp et al., 2018)、 用 于 项 目 功 能 差异 
检验 及 项 目 水 平 模型 比较 时 导致 一 类 错误 控制 率 
膨胀 (Liu，Andersson，et al., 2019; Liu, Yin, et al., 
2019; XI E BE 等 , 2016) 等 。 基 于 此 ,本 研究 认为 
Wald-IC 方法 在 修正 错误 标定 属性 方面 表现 较 差 的 
主要 原因 可 能 是 在 Wald 统计 量 的 计算 中 采用 了 不 
完整 的 信息 矩阵 。 

研究 者 (Liu et al., 2016; Liu, Xin, et al., 2019; 
Liu et al, 2021; Philipp et al, 2018; x eRE 等 ， 
2016) CDM 中 同时 存在 两 种 类 型 的 模型 参数 : 
项 目 参 数 和 结构 参数 。 不 完整 信息 矩阵 (de la Torre, 
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2009; 2011) 忽 略 了 结构 参数 ,计算 量 较 小 ， 有 较 大 
可 能 导致 Q 矩阵 修正 结果 不 够 准确 ,以 往 研究 者 提 
出 了 多 种 完整 信息 矩阵 佑 计 方 法 (Liu，Xin，et al., 
2019; Liu et al., 2021; Philipp et al., 2018; X ERE 
等 , 2016)， 但 是 这 些 关 于 模型 参数 的 信息 和 矩阵 无 法 
直接 用 于 Q 和 矩阵 修正 中 Wald 统 计量 的 计算 ， 因 为 此 
类 Wald 统计 量 中 使 用 的 是 关于 模型 参数 的 方差 - 
协 方差 矩阵 。 此 外 , 与 其 他 完整 信息 矩阵 相 比 , 经 验 
交叉 相 乘 信息 和 矩阵 (empirical cross-product information 
matrix, XPD; Liu et al., 2021; Philipp et al., 2018; XI] 
ERE 等 , 2016) 计 算 量 较 小 ， 故 本 研究 在 包含 全 部 
模型 参数 的 XPD 矩阵 的 基础 上 , 经 过 转换 获得 关 
于 项 目 正 确 作答 概率 的 方差 - 协 方差 和 矩阵， 以 此 构 
建 用 于 Q 和 矩阵 修正 的 Wald 统 计量 ( 记 为 Wald-XPD)。 

本 文 的 主要 目的 在 于 提出 一 种 新 的 Q FAME 
正方 法 , 并 通过 模拟 人 研究 与 实证 数据 分 析 考 察 新 方 
法 的 表现 。 模拟 研究 参考 了 以 往 研 究 者 研究 中 采用 
的 模拟 条 件 (de la Torre & Chiu, 2016; Ma & de la 
Torre, 2020; Najera et al., 2021), 考察 新 开发 的 方法 
fr Q 矩阵 修正 中 的 表现 , 并 与 同类 方法 进行 比较 ， 
希望 能 够 为 实践 研究 者 在 Q 矩阵 修正 方法 的 选用 
方面 提供 方法 支持 。 本 研究 选择 GDI, Hull, Wald-IC 
方法 与 Wald-XPD 方法 进行 比较 的 原因 是 : 首先 ， 
Wald-XPD 是 在 Wald-IC 方法 基础 上 提出 的 ， 新 方 
法 与 旧 方 法 表现 的 异同 有 待 探索 ; 其 次 ,先前 人 研究 
表明 在 GDI、Hull、Wald-IC 三 种 方法 中 , Hull 的 表 
现 是 最 好 的 , 故 有 必要 比较 Hull 5 Wald-XPD 两 种 
方法 的 表现 ; 第 三 ,限制 GDI 及 iGDI 方法 实践 应 
用 的 主要 原因 是 这 两 种 方法 均 需 要 人 为 地 设置 一 
个 截止 值 , 与 iGDI 相 比 ,固定 的 截止 值 对 GDI 方 
法 的 影响 相对 较 小 Nera_ et al.，2020)， 因 此 本 研 
究 将 GDI 也 纳入 比较 。 本 文 的 第 二 部 分 介绍 了 以 往 
研究 者 在 饱和 的 CDM 框架 下 提出 的 参数 化 Q@ 和 矩阵 
修正 方法 。 第 三 部 分 介绍 了 新 开发 的 Wald-XPD 7r 
法 。 第 四 部 分 采用 模拟 研究 ， 在 较 广 泛 和 真实 的 条 
件 下 探索 Wald-XPD 方法 的 具体 表现 ， 并 与 GDI, 
Hull 以 及 Wald-IC 方法 进行 比较 。 第 五 部 分 探讨 
Wald-XPD 方法 在 实证 数据 分 析 中 的 应 用 ,并 与 
Hull 方法 、Wald-IC 方法 进行 比较 。 最 后 对 
Wald-XPD 方法 进行 了 讨论 与 展望 。 


2 饱和 CDM 框架 下 的 参数 化 Q XR 
阵 修 正方 法 


在 认 知 诊断 测验 中 ,，Q 矩阵 是 建立 可 观察 的 被 


试 作答 反应 和 不 可 观察 的 项 目 特 征 之 间 联 系 的 桥 
梁 。 一般 而 言 ， 二 值 计 分 测验 中 的 Q 是 Jx 天 维 的 
AREE, Xo .7 个 项 目测 量 了 天 个 属性 。 通 常 也 将 属 
性 假定 为 二 值 计 分 , 根据 项 目 j 是 否 测量 了 属性 k, 
4 天 可 以 取 0 或 者 1。 假 如 , 一 份 测验 包含 3 个 项 目 ， 
共 考 察 了 2 个 属性 , 那么 根据 项 目 和 属性 之 间 的 关 
Z, 可 以 构建 如 下 Q 矩阵 : 


Hf, q; =[1,0] 表示 测验 中 的 第 一 个 项 目测 量 了 属 
性 1( 即 @)。 但 是 , 不 同 专 家 界定 的 Q FEMA SAA 
同 , 合理 设 定 Q 矩阵 并 非 易 事 。 壁 如 ,国内 外 人 研究 
者 对 于 分 数 减法 数据 中 (Tatsuoka，1990) 的 属性 设 
定 ， 至 今 仍 存 在 争议 (de la Torre & Chiu, 2016; Œ 
KU, EARS, AH 等 , 2018)。 因 此 ,对 原始 QR 
阵 进 行 修正 是 非常 必要 的 。 

本 研究 以 G-DINA 模型 为 例 ,考察 新 提出 的 
Wald-XPD 方法 在 Q 和 矩阵 修正 的 表现 ,并 与 以 往 研 
究 者 提出 的 GDI、Wald-IC、Hull 方法 进行 比较 。 
G-DINA 模型 是 一 般 、 饱 和 的 CDM 模型 ， 对 其 进 
行 适当 约束 ， 可 以 获得 多 种 特殊 模型 (de la Torre, 
2011)。 令 a, 表示 第 /种 属性 掌握 模式 ，q'5 =q 
94 天] 表示 项 目 / 与 测验 中 天 个 属性 之 间 的 对 应 关系 ， 
在 饱和 的 G-DINA 模型 中 ,正确 答对 项 目 j 的 概率 
可 表示 为 : 


K 
pj(0) = p;(0;.q;) =0j0 + Sn ik 十 
k=l 


天 一 | 


K 
> Ó i2 (kA!) Pak Pied jk je tn (1) 
k=1 k'=k+1 


其 中 ，5j0 是 项 目 7 的 截 距 项 参数 ，6x 是 ay MY ER 
MER, 0,504 FE Op 与 Qi 之 间 的 交互 效应 参数 。 
需要 特别 说 明 的 是 , 在 公式 (中 ， 如 果 凤 或 q 中 
的 某 个 元 素 等 于 0, 那么 对 应 的 项 目 参数 5 也 等 于 0。 
2.1 ”GDI 方法 

GDI 方 法 (de la Torre & Chiu, 2016) 是 在 G-DINA 
模型 框架 下 提出 的 ， 其 基本 思想 是 : 使 用 项 目 j 中 
所 有 可 能 的 属性 掌握 模式 条 件 下 的 正确 答对 概率 
的 方差 来 衡量 q 向 量 的 分 辨 能力, 选择 有 最 大 分 辨 
能 力 的 q 癌 量 作为 正确 设 定 的 q mE, BEME 
的 q 回 量 能 够 使 不 同属 性 千 握 模式 的 被 试 正 确 作 答 
概率 方差 最 大 化 。GDI 方法 采用 辨别 指数 GO 
(discriminating index) 表 示 正 确 作 答 概 率 的 方差 ， 即 
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项 目 j 的 某 个 q 向 量 关 于 所 有 可 能 的 属性 掌握 模式 
的 被 试 正确 作 管 概率 的 方差 : 


25 
€; =} wa |x)[p;(0)) - P; (2) 
l=1 


HEP, pa) 表示 拥有 属性 掌握 模式 为 a 的 被 试 
正确 作答 的 概率 ; Pj 表示 所 有 被 试 平均 的 正确 作 
管 概率 。 男 外 ，w(aj | x) 表示 在 测验 项 目的 观察 反 
AREE x rpm PESE STIS w 的 被 试 的 后 验 概率 : 


wa [x)= Ewa [x)= levee) qs 
= = > x | a, )z(a,) 


I4 
公式 (3) 中 , N 表示 样本 量 ; L(x; | aj) 表示 属性 掌握 
模式 为 a 的 被 试 i 在 所 有 项 目 上 作答 反应 x 的 条 件 
MWR PRA; aa) 表示 拥有 第 D 种 属性 掌握 模式 的 
被 试 在 总 体 中 所 占 的 比例 ， 即 第 /个 结构 参数 。 
辨别 指数 c7 用 来 衡量 一 个 项 目的 辨别 力 ， 即 
区 分 不 同属 性 向 握 模式 的 被 试 的 能 力 。 有 最 大 GDI 
且 需 要 最 少 属性 数 的 q 问 量 , 才 是 正确 设 定 的 9q 问 
量 。 但 是 ,实践 中 由 于 随机 误差 ， 过度 设 定 (over- 
specifications, OS) 的 q 癌 量 比 正确 设 定 的 q EA 
更 大 的 GDI 值 ， 如 全 为 1 的 q 向 量 (q'=[1,…,1]) 有 
最 大 的 GDI 值 。 因 为 在 原 有 q 癌 量 的 基础 上 增加 
属性 会 导致 潜在 组 差异 , 使 成 功 概率 的 方差 变 大 ， 
lit q' 2 [e EEH ce 是 最 大 的 ,然而 , 这 种 较 高 的 
潜在 组 之 间 的 差异 是 虚假 的 ,本 着 合适 与 简约 原则 ， 
正确 设 定 的 q 癌 量 应 是 简单 且 有 最 大 成 功 作答 概 
率 方差 的 ， 故 de la Torre 和 Chiu (2016) 计 算 了 gq 向 
量 的 所 占 方差 PVAF (the proportion of variance 


accounted for): 


SLK (4) 

Ep, of, 表示 项 目 j 的 全 为 1 的 q 向 量 关 于 所 有 
可 能 的 属性 掌握 模式 的 被 试 正确 作答 概率 的 方差 。 

截止 值 用 来 判断 一 个 q 向 量 的 PVAF 是 否 合 
适 。 一 个 正确 设 定 的 q 向 量 需 要 满足 两 个 条 件 : 
(1)PVAF 大 于 截止 值 ; (2) 包 含 的 属性 数 最 少 。 耕 多 
个 q 癌 量 同时 满足 以 上 两 个 条 件 ， 则 选择 PVAF fü 
最 大 的 q 向 量 作为 正确 设 定 的 q 癌 量 。 
2.2 Hull 方法 

Hull 77 iX: (Nájera et al., 2021) 的 基本 原理 是 : 在 
项 目 水 平 上 比较 所 有 可 能 q 向 量 的 拟 合 指标 。 将 所 
有 可 能 的 q 向量 呈现 在 Hull KE, Hull 图 的 横 坐 标 
表示 与 每 个 q 向 量 相关 的 参数 数量 ， 纵 坐标 表示 拟 


合 指标 。Hull 方法 选取 的 拟 合 指标 有 两 个 : 第 一 个 
是 PVAF, 用 来 评 佑 不 同 q 向 量 的 项 目 区 分 度 大 小 ; 
第 二 个 是 绝对 模型 拟 合 指 McFadden pseudo-A? 
(McFadden，1974),， 用 于 衡量 观察 反应 中 方差 所 占 
的 比例 , 评估 获得 的 估计 值 与 观察 反应 之 间 的 拟 合 
度 (Hull 方法 的 两 个 指标 在 下 文 分 别 表示 为 HullP 
和 HullR)。 选 择 项 目 中 不 同 参数 数量 下 有 最 大 
PVAF 或 McFadden pseudo-A? [Hifl] q 向 量 作为 候选 
HE, 任意 两 个 修 选 q 癌 量 之 间 会 形成 一 条 线段 ， 
将 该 线段 下 方 的 所 有 q HEKER, i Hull 图 成 一 条 
单调 递增 的 曲线 ,假设 项 目 j 的 K=3, 那么 以 PVAF 
为 指标 的 Hull 图 如 图 1 所 示 , 图 中 上 方 蓝 色 字 体 表 
示 候 选 q 向 量 ， 下 方 黑色 字体 表示 该 候选 q 向 量 的 
PVAFE 。 


4 
参数 数量 
All K=3 IN, 以 PVAF 为 指标 的 Hull 图 


对 于 Hull 方 法 的 两 个 拟 合 指标 而 言 ， 添 加 项 目 
中 相关 联 的 属性 会 显著 增加 拟 合 指标 的 值 ; 添加 不 
关联 的 属性 也 会 增加 拟 合 指标 的 值 , 但 影响 可 能 较 
小 。 故 从 拟 合 -简约 相 平衡 的 视角 出 发 , 在 Hull 图 
中 选择 先 使 拟 合 指标 显著 增加 ， 然 后 使 拟 合 指标 平 
组 增加 的 候选 q 向 量 作为 正确 设 定 的 q 回 量 。 基 于 
此 , 研究 者 采用 st 指数 (Ceulemans & Kiers, 2006) 
计算 每 个 候选 q 向 量 的 抛 角 大 小 (the magnitude of 
the elbow), 选择 st 指数 最 大 的 候选 q 丫 量 作为 正确 
设 定 的 qn 
(fix — Fia)! PK —npg) 
p (fik T ik)! (Pga -npy) 
Hh, fuc npx 分 别 表示 项 目 j 的 个 候选 q 向 
量 的 拟 合 指标 和 参数 数量 。 

需要 强调 的 是 , 移 除 候选 q 向 量 下 方 所 有 的 q 
向 量 之 后 , 知 图 中 仅 剩 下 原点 处 和 全 为 1 的 q 癌 量 
(q =[1,…,1] )， 则 选择 全 为 1 的 q 向 量 作为 该 项 目 
正确 设 定 的 q 癌 量 ; 奉 图 中 仍 有 两 个 或 多 个 q HE, 


(5) 


Uk 
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则 计算 每 个 q 向 量 的 st 指数 ，st 指数 最 大 的 候选 q 
向 量 即 为 该 项 目 正确 设 定 的 q 向 量 。 
2.3 Wald-IC 方法 

用 于 Q 矩阵 修正 的 Wald 统计 量 也 是 在 项 目 水 
平 上 进行 的 ,， 其 基本 原理 是 :假设 项 目 j 所 对 应 的 gq 
向 量 定 义 了 2 个 及 以 上 的 属性 ， 如 果 将 某 一 属性 从 
q 向 量 中 移 除 而 没有 导致 模型 -数据 拟 合 变 差 , 那 
么 这 个 属性 就 不 是 必需 的 。 为 便于 理解 ， 现 举例 说 
BA, 假设 一 个 测验 共 测 量 了 2 个 属性 , B K—2, D 
么 ,所 有 可 能 的 属性 掌握 模式 有 4 种 ， 可 以 表示 为 : 


0, 0 0 

a, 1 0 
a= = 

05 0 1 

a, 1 1 


假设 待 检 验 的 q BÆN q -[LI], 那么 相应 的 项 目 
正确 作答 概率 的 向 量 可 以 表示 为 ; 


Dion) Ô io 

pj (Gz) Ojo + Oj 
p;(@)= 二 

Pp; (Gs) ôo + Ój; 

pj (04) | Ojo tóa +952 tj | 


仿 验 属性 1( 即 on re AP ee s AY, 首先 需要 构建 a 


m R ER 
-1 0 A 
R= 
0 0 1-1 


本 文中 ,“x íHREPABÉESXIIEHI, RER. £r 
a 在 统计 上 不 是 必需 的 , 那么 Rxp;(0)=0 。 即 : 
P; (a) | 


l -] 0 M pj (Gy) M -Ój d 
0 0 1 -1| |p;(%) -(0j tj) 
p; (04) | 


表明 掌握 o 不 会 增加 正确 答对 项 目 7 的 概率 , 故 a 
不 是 必需 的 。 此 外 , 检验 属性 2 ( 即 ary ) 是 否 必需 的 


R 和 矩阵 为 : 
l 0 -1 A 
R= 
01 0 -1 


需要 说 明 的 是 ,对 于 项 目 j 而 言 , 不 同 的 待 检验 属 
性 所 对 应 的 q 向 量 是 不 同 ,也 就 是 项 目 参数 估计 值 
是 不 同 的 ,因此 , 向 量 pj(@) 的 值 不 是 固定 的 。 
Wald-IC 统计 量 的 形式 为 : 
Walduc =[Rxp ;(@)]' (Rx Vac; x R') [Rxpi(wO] (6) 
Hf. Voy AE Ton se S BI 
正确 作答 概率 的 方差 - 协 方差 矩阵 。 
Wald-IC 方法 修正 Q SEMEN: 首先 , 需 


3p gk —4- 257 x2% 的 R 矩阵 ， 有 表示 待 检验 
的 q 向量 中 定义 的 项 目 j 需 要 的 属性 数量 。 在 零 假 
wT, WERE k 在 统计 上 不 是 必需 的 , ABA Rx 
pj(0) =0。 其 次 , 需要 对 不 完整 信息 矩阵 求 逆 获 得 
项 目 正确 作答 概率 的 方差 - 协 方差 矩阵 Vic ;来 构 
建 Wald 统计 量 。Ma 和 de la Torre (2020) 采 用 的 是 
de la Torre (2009) 提 出 的 考虑 全 部 项 目 正 确 作 答 概 
率 的 不 完整 信息 矩阵 估计 方法 T pos : 
E Ol(x) x Ol(x) 

lp ;(@)] aip, (o) 
Hop, C(x) 表示 观察 数据 的 对 数 似 然 函数 。 理 论 上 ， 
用 于 Q 矩阵 修正 的 Wald 统计 量 渐 近 x 分 布 , 自由 
度 是 2557, [E e, Wald-IC 统计 量 中 方差 - 协 方差 矩 
阵 的 计算 存在 不 准确 的 问题 ,可 能 导 臻 Q 窍 阵 修正 
的 效果 不 理想 。 


3 ”基于 完整 XPD 矩阵 的 Wald-XPD 
211 128 
3.1 使 用 XPD 和 矩阵 构建 Wald-XPD 统计 量 
Philipp 等 人 (2018) 和 Liu 等 人 (2021) 用 结构 参 
数 工 描述 被 试 总 体 的 潜在 属性 掌握 模式 a 的 分 布 状 
D mn.) 假设 及 =2,， 那么 在 这 个 测验 中 
被 试 所 有 可 能 的 属性 掌握 模式 ww 有 工 = 4 种 ,万 = 
m(a,) 表示 被 试 总 体 中 具有 第 1 种 属性 掌握 模式 a, 
的 分 布 比例 。 例 如 ，x(a) 是 被 试 总 体 中 具有 第 1 
种 属性 掌握 模式 as =[0,0] 的 分 布 比例 。 
研究 者 提出 了 很 多 完整 信息 矩阵 的 估计 方法 ， 
主要 有 : 完整 的 经 验 交 叉 相 乘 信息 矩阵 (Liu et al., 
2021; Philipp et al., 2018; xI2RE 等 , 2016)、 完 整 的 
观察 信息 矩阵 (observed information matrix; Liu et al., 
2021; XJ RBS 等 , 2016)、 完 整 的 三 明治 信息 矩阵 
(sandwich-type information matrix; Liu, Xin, et al., 
2019; Liu et al., 2021) 等 。 由 于 考虑 所 有 模型 参数 , 完 
整 信 息 和 矩阵 的 计算 量 较 大 ,尤其 是 观察 信息 和 矩阵 以 
及 三 明治 信息 矩阵 涉及 观察 数据 的 对 数 似 然 函数 关 
于 所 有 模型 参数 的 二 阶 偏 导 , 计算 量 非常 大 。 本 文采 
用 观察 数据 对 数 似 然 函 数 关 于 项 目 参 数 6 和 结构 
参数 zt 的 一 阶 导 向 量 交 叉 相 乘 而 计算 的 XPD 矩阵: 
OL(x) A) OL) OL) ] 
00, ô 00, ôm, 


(7) 


D09 


Ixpp = : (8) 
Ol(x) " Ol(x) 


O7, | 


Ox) Ox) .. 


O7, 4 | 
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在 构建 Wald 统计 量 之 前 ， 本 研究 首先 对 XPD 
和 矩阵 做 了 以 下 三 个 方面 的 处 理 : 

(1) 对 XPD 矩阵 求 着 ， 获 得 方差 - 协 方差 矩阵 
Xxpp > Hp: Yxpp = Txpp o XH Xxpp 中 项 目 J 对 应 
方差 - 协 方差 矩阵 。 

(2) 采 用 M ,和 矩阵 (de la Torre, 2011) 通 过 和 矩阵 乘 
法 将 项 目 参数 的 方差 - 协 方差 矩阵 三 ;, ， 转 换 为 项 目 
正确 作答 概率 的 方差 - 协 方差 矩阵 Vixppy;， 即 : 
Vrp; "M;xE;. M ERE 25 wa AE HJ B BE, 
表示 项 目 7 中 各 个 属性 掌握 模式 与 项 目 参数 之 间 的 
对 应 关系 , 可 以 将 项 目 参 数 转换 为 各 个 属性 掌握 模 
式 下 的 正确 作答 概率 。 例 如 ,假设 项 目 j 中 K’=2， 
则 对 于 饱和 G-DINA 模型 而 言 该 项 目的 M ,和 矩阵 可 
以 表示 为 : 


M ja 


— =e = 一 
一 O =. c 


0 
0 
0 
1 


通过 M ,和 矩阵， 可 以 获得 该 项 目 中 各 个 属性 掌握 模 
式 下 的 正确 作答 概率 向 量 pi(a) : 


1.0 0 01 | % | Ô jo 
1 1 0 0| | ĉi Ojo +t oj 
B= 9 1 ols, |" 6426 
j2 jo + 9j2 
P5433 


oj | Ó jo *tÓg +ô; +ô; | 
根据 统计 学 中 模型 参数 方差 - 协 方差 矩阵 的 性 质 
(或 参考 Li & Wang, 2015)， 可 以 通过 M ,矩阵 将 项 
目 参 数 的 方差 - 协 方差 矩阵 互 ; 转换 为 项 目 正 确 作 
答 概 率 的 方差 - 协 方差 矩阵 Vixpp); 。 因 此 ， 基 于 
XPD 矩阵 构建 Wald 统计 量 的 形式 为 : 

Wald (xpp, = 


[Rxp ,(@)] (Rx Vipp; xR’) [Rxp;(a)] (9) 


(3) 对 比 完整 和 不 完整 信息 矩阵 可 知 ， 完整 信 
息 和 矩阵 考虑 模型 中 的 全 部 参数 ,计算 量 较 大 , 修正 
过 程 较为 耗 时 。 故 本 研究 采用 C++ 语 言 编 写 XPD 
AREE, HER Q 矩阵 修正 的 速度 。 
3.20 Wald-XPD 方法 的 具体 实施 步骤 

Wald-XPD 方法 用 于 Q 和 矩阵 修正 是 逐个 项 目 进 
£189. (EA j AY q 向 量 的 集合 是 由 单一 属性 构 
成 的 。A 是 所 需 属性 的 集合 ,，B 是 需要 修正 的 目标 
属性 的 集合 , BIEZM, A-O, B={1,2,---,K}. 

本 研究 新 提出 的 Wald-XPD 方法 的 修正 步骤 


如 下 : 

步骤 (1): 选择 项 目 j 中 具有 最 大 PVAF 值 的 单 
一 属性 q 向 量 中 包含 的 属性 为 第 一 个 所 需 属性 ， 更 
新 集合 A、B。 

HRO): 将 该 单一 属性 q 向 量 的 PVAF 值 与 
0.95 进行 比较 , 大 于 0.95 说 明 该 q 向 量 是 合适 的 ， 
停止 修正 ， 和 否则 继续 修正 。 

步 又 (3): 更 新 集合 A、B。 选 出 具有 较 大 PVAEF 
的 q 向 量 进行 修正 , 将 该 q 向 量 中 各 属性 使 用 
Wald-XPD 统计 量 进行 显著 性 检验 , 确定 该 q 向 量 
对 应 的 集合 A 和 集合 B 中 的 属性 是 否 应 该 移 除 或 
添加 ， 然 后 判断 q 向 量 的 PVAF 是 否 大 于 0.95, 大 
于 0.95 说 明 这 个 q 向 量 是 合适 的 , 停止 修正 ,否则 
继续 修正 。 

步 又 (4): 重复 步骤 (3)， 直 到 某 个 q 向 量 的 PAVF 
EKF 0.95, 或 者 没有 属性 移 除 或 添加 则 停止 修正 。 

p): 在 单个 项 目 修正 结束 后 , 重新 计算 
PVAF 以 及 Wald-XPD 统计 量 ， 直 到 达到 最 大 迭代 
或 者 某 次 迭代 结束 后 的 q 向 量 与 前 一 次 迭代 的 q 向 
量 完全 相等 则 停止 修正 。 

为 了 便于 理解 ， 现 举例 说 明 Wald-XPD 方法 用 
于 某 个 项 目的 q 向 量 的 修正 算法 。 假 设 项 目 j 中 gq 
向 量 的 属性 数 玉 = 3, Wald-XPD 方法 修正 该 q 向 量 
的 过 程 如 图 2 所 示 。 


4 ”模拟 人 研究 


模拟 研究 的 目的 是 在 较为 广泛 和 真实 的 条 件 
下 探讨 Wald-XPD 方法 在 Q 矩阵 修正 中 的 表现 ,并 
与 以 往 研 究 者 提出 的 GDI, Wald-IC 以 及 Hull 
(HullP、HullR) 方 法 进行 比较 。 
41 方法 
4.1.1 ”研究 设计 

为 便于 比较 ,本 人 研究 参考 以 往 人 研究 设计 (Ma & 
de la Torre, 2020; Najera et al., 2021)， 共 操纵 了 5 种 
因素 : 项 目 数 和 属性 数 的 比例 (ratio of number of 
items to attribute, JK)、 样 本 量 (N)、Q 矩阵 错误 设 定 
的 比例 (Q-matrix misspecification rate, OM)、 属 性 分 
布 (attribute distribution, 4D)、 项 目 质 量 (item quality, 
10)。 本 研究 将 属性 数 设 置 为 K= 4， 因为 这 是 应 用 
类 文章 中 最 经 常 出 现 的 属性 数 (Najera et al., 2020)。 
以 往 研 究 中 常用 的 项 目 数 是 11 到 30 (Sessoms & 
Henson, 2018)， 故 本 研究 将 项 目 数 设置 为 16 和 32, 
所 以 , 本 研究 共 考 虑 2 种 测验 结构 :.J= 16[(K = 4)x 
(JK =4)], J=32[(K =4)xVUK = 8)]。 样 本 量 有 两 个 
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假设 属性 1 有 最 大 的 PVAF 
更 新 集合 A、B 
此 时 A-(1); B={2、3} 


否 


更 新 集合 A、B 
A={1、2}; B={3} 
和 A={1、3}; B={2} 


构建 q 向 量 (110) 

和 (101) 的 Wald 
分 别 求 出 gq 向 量 (110) 和 和 
(101) 中 各 个 属性 的 p 值 


选 出 (110) 和 (101) 中 


有 最 大 PVAF 的 q 向 量 
假设 (110) 有 最 大 PVAF 


显著 性 检验 确定 (110) 中 哪个 
属性 应 该 移 除 或 添加 假设 属性 2 
应 该 添加 ， 属 性 1 应 该 移 除 


确定 属性 1 是 否 应 该 移 除 ， 假 
设 属性 1 不 应 该 移 除 ， 则 当前 
q 癌 量 为 (110) 


q 疝 量 (110) 的 
PVAF 是 否 >0.95 


ff 


更 新 集合 A、B 
A={1, 2, 3}; B=% 
构建 q 向 量 
(111) 的 Wald 


求 出 (111) 中 3 个 
属性 的 p 值 


该 移 除 或 添加 假设 属性 3 应 该 添加 ， 
属性 1 和 属性 2 应 该 移 除 


确定 属性 1 和 属性 2 是 否 应 该 移 
除 ， 假 设 属性 1 和 属性 2 均 不 应 
该 移 除 ， 则 当前 q 向 量 为 (111) 


q 向 量 (111) 中 无 可 添 
加 或 者 移 除 的 属性 


图 2 Wald-XPD 方法 用 于 qj; 向量 的 修正 流程 图 


显著 性 检验 确定 (111) 中 哪个 属性 应 


nm 


n 


水 平 :500 F1 1000 (Chen, 2017; de la Torre, 2011; Ma 
& de la Torre, 2016), 分 别 代表 小 样本 和 大 样本 。 本 
人 研究 共有 48 个 实验 条 件 , 各 因素 水 平 如 表 1 所 示 。 


表 1 模拟 研究 中 各 因素 水 平 汇 总 


因素 因素 水 平 
样本 量 N 500, 1000 
项 目 数 和 属性 数 的 比例 JK 4、8 
属性 数 K 4 
平均 项 目 质量 LO 0.4、0.6、0.8 
属性 分 布 AD 均匀 分 布 、 高 阶 分 布 
错误 设 定 的 比例 OM 0.15, 0.3 
链接 函数 G-DINA 模型 
OERE EJ] HE GDI, Wald-IC, Hull (HullP、 


HullR), Wald-XPD 


4.1.2 BER 

被 试 的 属性 掌握 模式 从 两 种 分 布 中 产生 : 均匀 
分 布 和 高 阶 分 布 (de la Torre & Douglas, 2004)。 对 于 
均匀 分 布 ， 每 个 被 试 的 属性 掌握 模式 是 从 所 有 可 能 
的 属性 掌握 模式 中 以 相等 的 概率 随机 生成 的 ; 对 于 
高 阶 分 布 ,， 被 试 的 能 力 (0) 来 自 于 标准 正 态 分 布 ， 
属性 难度 参数 5, 在 [-1.5，1.5] 之 间 给 出 等 距 值 (Ma 
& de la Torre, 2020)。 

项 目 质 量 分 为 高 、 中 、 低 3 个 水 平 。 高 项 目 质 
量 : P,(0) ~ U (0, 0.2) H. P;(1) ~ U (0.8, 1); 中 等 项 
BM: P;(0) ~ U (0.1, 0.3) H. P;(1) ~ U (0.7, 0.9); 
低 项 目 质量 : Pj(0) ~ U (0.2, 0.2) H. P;(1) ~ U (0.6, 
0.8)。 其 中 , 已 (0) 表 示 仅 赁 猜测 答对 的 概率 , Pj(1) 表 
示 掌 握 项 目 所 要 求 的 全 部 属性 的 被 试 答对 该 项 目 
的 概率 。 成 功 的 概率 有 两 种 限制 : (1) 项 目 反 应 函数 
在 属性 数 上 具有 单调 性 ; (2) 与 单个 属性 相 联系 的 项 
目 参 数 的 总 和 限制 为 大 于 0.15。 这 两 个 条 件 保证 所 
有 的 属性 都 具有 不 可 忽视 的 作用 。 

真实 Q 矩阵 符合 以 下 限制 (1) 每 个 Q 矩阵 至 
少 包 含 两 个 单位 矩阵 (identity matrix); (2) 除 了 两 个 
单位 矩阵 外 ,每 个 项 目 至 少 测量 一 个 属性 ; (3) Q FE 
阵 由 1 个 属性 q 向 量 (50%)、2 个 属性 q 向 量 (25%) 
和 3 个 属性 q 向 量 (25%) 组 成 。 这 个 比例 主要 是 参 
考 之 前 研究 (Naijera et al, 2021), 使 用 较 高 比例 的 
单一 属性 q 向 量 的 原因 是 满足 每 个 Q 矩阵 至 少 包含 
两 个 单位 和 矩阵 的 模型 可 识别 条 件 (Gu et al., 2018). 
错误 设 定 的 Q 和 矩阵 的 比例 为 : 0.15 和 0.3。 错 误 设 
定 是 在 两 个 约束 条 件 下 随机 引入 : (1) 所 有 项 目 必 须 
至 少 测量 一 个 属性 ; (2) 始 终 保留 一 个 单位 矩阵 。 

在 每 个 条 件 下 , 均 生 成 500 个 数据 集 ， 每 个 数 
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据 集 中 生成 新 的 真实 Q 矩阵 和 项 目 人 参数。 所 有 的 模 
拟 研 究 和 分 析 都 在 R 软件 中 进行 。 
4.1.3 评价 指标 
QRR (Q-matrix recovery rate) 用 来 测量 Q 矩阵 
的 恢复 比例 ,可 以 表示 为 : 
J K 
DM (ae =a) 
QRR s (10) 
HP, (0 是 指示 图 数 ,大 修正 前 后 项 目 7 的 q 回 量 
完全 一 致 ， 则 (a = 4) -1, Al na = a) = 
0. aq, All a, 4l os H j “PPE k EN q 元 
素 和 真实 q 元 素 。 
TPR (true positive rate) 表 示 保 留 正 确 标定 属性 
的 比例 : 


t O t 
Ian eu d ed 


1 
EK 
Vda? =a") 
el 
其 中 ， gq% 表示 项 H j PRHE k WRL q 元 素 。 
TNR (true negative rate) 表 示 修 正 错误 标定 属 
性 的 比例 : 


IMs 
Ma 


> 
I 


TPR = (11) 


JK ; f 
Dl (ae cas aR eas) 


一 天 
Sl eal) 
j=lk=l 

本 研究 除了 使 用 QRR, TPR, TNR 来 考察 各 
个 方法 总 体 的 表现 之 外 , 还 参考 其 他 指标 来 获得 


(12) 


加 全 面具 体 的 结果 。OS 表示 过 度 设 定 , US (under- 
specifications) #27 Tt iei x 4E, 表达 式 分 别 为 : 
J K 
OS= Y r(a? > qq) (13) 
j=lk=l 
J K ; 
US- 3» 1(as? «afe ) (14) 
j=lk=l 


LA E 5A db MAS II TAT WR Q HE BE EY AE TE 
AUR. FHA, QRR, TPR, TNR 的 值 越 高 ， 表 示 该 
修正 方法 的 Q 和 矩阵 恢复 率 以 及 保留 正确 标定 属性 
和 修正 错误 标定 属性 的 比例 越 高 ,修正 效果 越 好 。 
OS 和 US 的 值 越 小 ,表示 该 修正 方法 存在 较 少 过 度 
WE RIPE E BE M ETE CR 
42 ”研究 结果 
4.2.1 GDI, Hull, Wald-IC 以 及 Wald-XPD 在 各 

因素 不 同 水 平 上 的 表现 

表 2 呈现 了 GDI, Hull (HullP , HullR), Wald-IC 
以 及 Wald-XPD 方法 在 各 因素 不 同 水 平 上 的 QRR、 


TPR, TNR, OS 和 US 值 ， 表 中 加 粗 数 据 是 相同 条 
件 下 的 最 优 结果 。 

首先 ， 比 较 的 是 各 实验 条 件 的 综合 影响 。Q AE 
阵 错误 设 定 的 比例 、 项 目 质量 、 样 本 量 以 及 属性 分 
布 对 于 GDI, Wald-IC, Hull (HullP、HullR) 以 及 
Wald-XPD 方法 在 各 个 指标 上 的 表现 有 明显 影响 。 
除 Hull (HullP、HullR) 方 法 的 TPR 指标 受 项 目 质量 
的 影响 较 小 外 , 在 项 目 质量 较 高 的 条 件 下 ， 所 有 方 
法 的 表现 均 优 于 其 他 水 平 。Q 和 矩阵 错误 设 定 的 比例 
和 样本 量 对 于 4 种 方法 在 各 个 指标 上 的 表现 也 存在 
一 定 的 影响 ,， 随 着 Q 和 矩阵 错误 设 定 的 比例 降低 和 样 
本 量 增 大 , 4 种 方法 均 有 更 好 的 Q 矩阵 修正 表现 。 
均匀 分 布下 ,4 种 方法 在 各 个 指标 上 的 表现 均 优 于 
高 阶 分 布 。 就 IJK 因素 而 言 , JK 对 于 GDI, Wald-IC 
和 Wald-XPD 在 QRR 指标 上 的 表现 ,以 及 所 有 的 修 
正方 法 在 TNR 指标 上 的 表现 影响 明显 ， 所 有 指标 
Æ JK = 8 水平 下 的 结果 优 于 JK = 4。 

其 次 ， 比 较 的 是 4 种 修正 方法 的 综合 表现 。 所 
有 方法 在 QRR 以 及 TPR 指标 上 没有 表现 出 明显 优 
劣 。 其 中 , 本 研究 中 新 提出 的 Wald-XPD 在 TNR 48 
标 上 的 表现 明显 优 于 其 他 方法 ; GDI 在 OS 指标 上 
的 表现 较 优 , 但 是 在 US 指标 上 表现 相对 较 差 ; HullR 
在 OS 指标 上 的 表现 较 差 , 但 是 在 US 指标 上 表现 
相对 较 优 ; Wald-IC 在 US 指标 上 表现 相对 较 差 。 

根据 以 上 综合 比较 可 知 , Wald-XPD 以 及 HullP 
在 各 个 指标 上 有 相对 较 好 的 表现 , HÆ TNR 指标 
上 Wald-XPD 的 表现 最 好 。 此 外 ,鉴于 Wald-XPD 
是 在 Wald-IC 基础 上 新 提出 的 方法 ， 故 接 下 来 本 研 
究 主 要 探讨 Wald-XPD、Wald-IC 以 及 HullP 方法 在 
QRR、TPR 以 及 TNR 这 3 个 主要 指标 上 的 具体 表 
M, 并 重点 关注 Wald-XPD 在 TNR 指标 上 的 表现 ， 
即 Wald-XPD 修正 Q 和 矩阵 中 错误 标定 属性 的 能 
4.02.) Wald-XPD 在 修正 错误 标定 属性 时 的 表现 

图 3 呈现 的 是 HullP、Wald-IC 以 及 Wald-XPD 
方法 在 48 种 具体 的 模拟 条 件 下 获得 的 QRR 的 值 。 
由 图 3 可 知 , 项 目 质量 对 于 这 3 种 方法 的 表现 影响 
最 为 明显 ， 随 着 项 目 质量 的 提高 ，QRR 的 值 也 在 增 
加 。 另 外 , 样本 量 、Q 矩阵 错误 设 定 的 比例 以 及 属 
性 分 布 对 于 这 3 个 方法 在 QRR 指标 上 的 表现 稍 有 影 
响 ， 且 趋势 一 致 ,就 QRR 指标 而 言 , HullP、Wald-IC 
以 及 Wald-XPD 方法 的 表现 仅 有 细微 差异 ， 即 当 IO = 
0.4 时 Wald-XPD 的 表现 略微 低 于 另外 两 种 方法 。 

图 4 呈现 的 是 3 种 方法 在 TPR 指标 上 的 表现 。 
由 图 4 可 知 ,， 在 所 有 条 件 下 Wald-IC 以 及 HullP 77 
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R2 不 同 因素 水 平 的 结果 
Be 
0.15 0.3 0.4 0.6 0.8 500 1000 4 8 均匀 分 布 高 阶 分 布 
GDI 0.906 0.828 0.859 0.922 0.945 0.922 0.922 0.906 0.930 0.938 0.906 
Wald-IC 0.948 0.813 0.844 0.922 0.969 0.906 0.938 0.891 0.930 0.938 0.906 
QRR HullP 0.930 0.852 0.875 0.945 0.953 0.938 0.953 0.938 0.945 0.953 0.930 
HullR 0.891 0.797 0.844 0.891 0.922 0.898 0.906 0.906 0.906 0.914 0.891 
Wald-XPD 0.937 0.867 0.820 0.938 0.969 0.906 0.953 0.906 0.945 0.953 0.906 
GDI 0.944 0.922 0.933 0.936 0.953 0.936 0.945 0.944 0.936 0.954 0.926 
Wald-IC 0.945 0.933 0.908 0.954 0.969 0.933 0.956 0.944 0.945 0.956 0.938 
TPR  HullP 0.963 0.936 0.963 0.961 0.956 0.953 0.969 0.963 0.956 0.967 0.953 
HullR 0.936 0.911 0.953 0.927 0.930 0.927 0.944 0.956 0.922 0.944 0.926 
Wald-XPD 0.944 0.900 0.835 0.944 0.969 0.9317 0.953 0.920 0.944 0.953 0.927 
GDI 0.800 0.684 0.421 0.789 0.900 0.711 0.737 0.579 0.842 0.800 0.684 
Wald-IC 0.789 0.579 0.405 0.700 0.900 0.632 0.684 0.526 0.789 0.700 0.632 
TNR HullP 0.800 0.684 0.368 0.833 0.947 0.737 0.800 0.600 0.895 0.816 0.700 
HullR 0.684 0.579 0.263 0.676 0.895 0.600 0.632 0.421 0.763 0.684 0.579 
Wald-XPD 0.900 0.816 0.684 0.900 0.947 0.840 0.894 0.700 0.920 0.900 0.830 
GDI 0 3 3 0 0 0 0 0 0 0 0 
Wald-IC 1 5 3 1 0 1 0 1 0 0 1 
OS Hul IP 1 5 5 0 0 0 0 0 0 0 0 
HullR 8 11 9 9 6 8 8 5 11 7 8 
Wald-XPD 1 3 4 1 0 2 1 1 1 1 1 
GDI 7 10 9 7 5 7 6 5 9 5 8 
Wald-IC 6 10 11 6 3 8 5 5 8 5 7 
US HullP 5 8 6 5 4 5 4 3 6 4 6 
HullR 2 5 5 2 1 2 1 1 2 1 3 
Wald-XPD 5 8 12 4 3 7 5 5 6 4 7 
TE: 粗 体 表示 各 指标 不 同 水 平 下 的 最 好 结果 。 
N=500 N= 1000 N= 1000 
JK =8 IK=4 JK=8 
ae 
DE: 
EGY 
BR l 
ER 
oe 
TA 
bags 
BM oq 
Se 
aoe 
- 
Ka 
>< 
MES 
1S 
X i 
II 
ER O 
O< 


0.4 05 0.6 0.7 0.804 0.5 0.6 0.7 0.804 05 0.6 07 0.804 05 06 0.7 0.8 


方法 —e— HullP 


项 目 质量 
- 4-- Wald-IC 


—m - Wald-XPD 


图 3 HullP, Wald-IC 与 Wald-XPD 方法 在 QRR 指标 上 的 表现 
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=0.15 


均匀 分 布 


0.15 Q 误 设 率 


阶 分 布 AD 


= 高 


Q 误 设 率 


= 0.3 
均匀 分 布 AD 


TPR 


Q 误 设 率 


AD 


=0.3 
阶 分 布 


= 高 


Q 误 设 率 
AD 


04 0.5 0.6 0.7 0.80.4 0.5 0.6 0.7 0.804 05 06 07 0.804 0.5 0.6 0.7 0.8 
项 目 质 量 
方法 —9— HulP -a-Wald-IC -m- Wald-XPD 


图 4  HullP, Wald-IC 与 Wald-XPD 方法 在 TPR 指标 上 的 表现 


法 均 能 获得 较 高 的 TPR 值 。 项 目 质量 对 于 Wald- 以 及 HullP 方法 ; 随 着 项 目 质量 的 提高 , 3 种 方法 在 
XPD 方法 的 表现 有 一 定 的 影响 ， 当 项 目 质量 较 低 TPR 指标 上 的 表现 相当 。 
时 ，Wald-XPD 在 TPR 指标 上 的 表现 不 如 Wald-IC 图 5 呈现 的 是 3 种 方法 在 TNR 指标 上 的 表现 。 


Q 误 设 率 =0.15 
= 均匀 分 布 


AD 


= 0.15 


高 阶 分 布 


0.3 QRK 


均匀 分 布 AD 


Q 误 设 率 


AD 


=0.3 


高 阶 分 布 


Q 误 设 率 


AD 


04 0.5 06 0.7 0.80.4 0.5 0.6 0.7 0.80.4 0.5 0.6 0.7 0804 05 0.6 0.7 0.8 
项 目 质量 
方法 —9—HulP -入 -Wald-IC  —m-Wald-XPD 


图 5 HullP, Wald-IC 与 Wald-XPD 方法 在 TNR 指标 上 的 表现 
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在 所 有 条 件 下 ,，Wald-XPD 方法 在 TNR 指标 上 的 表 
现 均 是 最 优 的 ， 对比 Wald-XPD 方法 在 TPR 及 TNR 
上 的 表现 可 知 ， 低 项 目 质量 条 件 对 这 个 方法 产生 了 
一 些 不 利 影 响 ， 而 在 中 等 或 高 项 目 质量 条 件 下 ， 
Wald-XPD 能 有 效 保留 Q 和 矩阵 中 正确 标定 的 属性 ， 
也 能 有 效 修 正 Q 和 矩阵 中 错误 标定 的 属性 。 测 验 长 度 
较 短 、 项 目 质量 较 低 及 Q XB deri xe EG B T ET 
HullP 方法 的 表现 较 差 , 结合 同样 条 件 下 HullP 在 
TPR 指标 上 的 表现 可 知 , 虽然 HullP 方法 在 保留 正 
确 标定 属性 方面 略微 优 于 Wald-XPD, 但 是 它 较 多 
地 保留 了 错误 标定 的 属性 。 即 , HullP 方法 倾向 于 较 
少 地 修正 原始 Q 矩阵 中 的 属性 。 在 低 项 目 质量 条 件 
下 的 多 数 情景 中 ， 虽 然 Wald-IC 方法 在 TNR 上 的 表 
现 优 于 HullP, 但 是 在 随 着 项 目 质量 的 提高 HullP 在 
多 数 情景 中 的 表现 优 于 Wald-IC. HullP, Wald-IC 
以 及 Wald-XPD 方法 在 TNR 指标 上 的 表现 受 样本 
量 、 测 验 长 度 、 项 目 质量 、 属 性 分 布 及 错误 设 定 比 
例 的 影响 明显 。 随 着 Q 矩阵 错误 设 定 比 例 降低 、 项 
目 质量 提高 、 测 验 长 度 增 加 , HullP 和 Wald-IC 方法 
的 TNR 值 有 所 提高 , 但 仍 低 于 Wald-XPD 方法 的 
TNR 值 。 


5 实证 数据 分 析 

本 研究 采用 实证 数据 进一步 考察 Wald-XPD 77 
法 的 表现 ， 并 与 HullP, Wald-IC 方法 进行 比较 。 被 
试 反 应 数据 及 测验 项 目 获 取 自 R 软件 包 pks (Heller 
& Wickelmaier, 2013), 来 自 德国 图 宾 根 (Tuebingen) 
大 学 的 一 个 学 习 实验 , 包含 504 名 被 试 在 12 个 概率 
论 测 验 项 目 上 的 作答 。Philipp 等 人 (2018) 认 为 这 个 
数据 集 共 测试 了 4 种 不 同 的 属性 : w (计算 某 事件 
REZ) a (计算 某 事件 的 对 立 事件 发 生 的 概 
AS). a, (计算 两 个 无 关 事件 同时 发 生 的 概率 )、 a 
(计算 两 个 独立 事件 发 生 的 概率 )， 并 定义 了 表 3 所 
示 的 原始 Q 和 矩阵 。 


lE: * 为 Wald-XPD 方法 调整 的 属性 ,# 为 Wald-IC 方法 调整 的 属 


本 研究 在 饱和 G-DINA 模型 框架 下 ,使 用 
HulIP , Wald-IC 以 及 Wald-XPD 方法 对 原始 Q 和 矩阵 
进行 了 修正 。 表 3 中 的 结果 显示 , HullP 方法 共 修 正 
Y 6 个 元 素 ，Wald-IC 方法 共 修 正 了 5 个 元 素 ， 
Wald-XPD 方法 一 共 修 正 了 16 个 元 素 ，Wald-IC 方 
法 修正 的 5 个 元 素 均 包括 在 Wald-XPD 方法 修正 的 
元 素 之 中 。 使 用 相对 拟 合 、 绝 对 拟 合 及 近似 拟 合 指 
标 比 较 原 始 Q 矩阵 、HullP、Wald-IC 及 Wald-XPD 
方法 修正 后 的 Q 矩阵 的 模型 -数据 拟 合 表现 。 拟 合 
指标 包括 : 相对 拟 合 指标 AIC (Akaike information 
criterion)fll BIC (Bayesian information criterion), fj 
限 信 息 绝 对 拟 合 (limited-information absolute fit) 指 
bk M; 及 近似 拟 合 指标 RMSEA, (root mean square 
error of approximation; Liu et al., 2016)， 结 果 见 表 
4。 就 相对 拟 合 指标 而 言 , QHunp 获得 最 佳 的 AIC 1H 
ER, Qxpp 的 AIC 指标 与 其 接近 ; Qxpp 获得 最 佳 的 
BIC 指标 ， 其 次 是 Qic, Quir 的 BIC 指标 最 差 。 即 ， 
Wald-XPD 方法 修正 后 的 Q@ 和 矩阵 的 相对 拟 合 指标 更 


表 3 原始 Q 和 矩阵 以 及 各 方法 对 属性 的 修正 情况 


原始 Q 和 矩阵 

a, Ay a, a, 
1 1 0 0 0 
2 0 1* 0* 0 
3 0 0 1 0 
4 0 0 0 1 
5 p[* 1 0 0^ 
6 1* 1 0 0 
7 1* 0* 1* 0 
8 1* 0* 1 0* 
9 1 0 0 1*#^ 
10 0 1*#^ 0 1 
11 1*#^ 1*#^ 0 1 
12 1* 0 ]*2^ 1 


TE, ^ 为 HullP 方法 调整 的 属性 


表 4 基于 3 种 方法 修正 前 后 Q 和 矩阵 的 拟 合 指标 


相对 拟 合 指标 有 限 信 息 拟 合 指 标 
Q M; 
AIC BIC RMSEA; 

M; df P 
Qoriginal 4979.256 5245.278 23.919 15 0.067 0.0343 
Qxpp 4962.484 5152.500 51.991 33 0.019 0.0338 
Qic 4964.200 5171.110 50.051 29 0.009 0.0380 
Quuir 4954.912 5178.709 40.037 25 0.029 0.0345 


第 1 期 


MERE 等 : 认 知 诊断 模型 Q 矩阵 修正 : 完整 信息 矩阵 的 作用 153 


优 。 在 绝对 拟 合 指标 M E, Qr 的 PP < 0.01, 表明 
Wald-IC 方法 修正 的 Q 矩阵 与 数据 失 拟 ; Qua 和 
Qxpp HY p 值 分 别 为 : 0.029 和 0.019, 表明 HullP 和 
Wald-XPD 方法 修正 后 的 Q@ 和 矩阵 没有 在 0.01 显著 性 
水 平 上 拒绝 模型 -数据 拟 合 的 原 假设 ,对 于 RMSEA, 
指标 而 言 ,其 值 越 接 近 0 修正 效果 越 好 ,其 中 Qxpp 
的 RMSEA, 最 接近 于 0, Hl Qxpp 在 RMSEA, 指标 
上 有 最 好 的 表现 (Liu etal., 2016)。 综 合 考 虑 相对 拟 
合 、 绝 对 拟 合 和 近似 拟 合 指 标 ,， 本 研究 认为 
Wald-XPD 方法 修正 后 的 Q 矩阵 在 模型 -数据 拟 合 
方面 表现 最 优 。 

需要 特别 说 明 的 是 , 本 研究 的 目的 是 在 一 般 性 
的 CDM 框架 下 开发 具有 广泛 适用 性 的 Q 和 矩阵 修正 
方法 。 因 此 ,实证 数据 分 析 的 重点 是 原始 Q 和 矩阵 的 
修正 , 没有 在 饱和 G-DINA 模型 的 基础 上 进一步 在 
项 目 水 平 上 进行 模型 比较 (Liu，Andersson，et al., 
2019)。 另 外 , M 统计 量 在 模型 参数 过 度 设 定时 ， 即 
模型 中 宛 余 参 数 过 多 时 ， 可 能 存在 统计 检验 力 不 足 
的 问题 (参考 Chen et al., 2018)。 举 例 而 言 ， 对比 原 
始 Quaisna 和 抢 阵 及 修正 后 的 Qxpp 和 矩阵 可 知 ，Qouuasinal 
中 可 能 存在 较 多 过 度 设 定 的 元 素 ,， 因 此， 导致 
Qorigina 的 Mo 统计 量 的 p (AKT 0.01。 参 考 先 前 研 
F (Liu et al.，2016)， 本 文 认为 在 模型 -数据 拟 合 
评价 方面 ， 近似 拟 合 统计 量 RMSEA, 可 能 更 具 参 考 
价值 。 

根据 表 3 的 结果 可 知 , Wald-XPD 方 法 修正 的 属 
EF, 对 w 修正 最 多 ， 共 修正 6 个 题目 , HE a 
从 1 变 成 0。 例 如 , 第 6 题 “ 一 个 盒子 包含 20 个 以 
下 颜色 的 大 理 石 : 4 个 白色 , 14 个 绿色 , 2 个 红色 。 
随机 抽取 的 大 理 石 不 是 白色 的 概率 是 多 少 ? ”解决 
这 个 问题 可 以 先 计 算出 该 事件 的 对 立 事件 发 生 的 
概率 (a,)， 即 随机 抽取 的 大 理 石 是 白色 的 概率 ， 然 
后 再 用 1 减 去 该 对 立 事件 发 生 的 概率 即 可 得 出 正确 
结论 。 对 于 5、6、7 题 来 说 ， 当 被 试 掌握 a, 时 即 能 
够 解决 问题 故 mw 不 是 必需 的 。 再 如 , 第 11 题 “ 车 
EEA 50 辆 车 。20 辆 是 黑色 的 ，10 辆 是 柴油 动力 
的 。 假 设 汽车 的 颜色 与 燃料 种 类 无 关 。 随 机 选择 的 
汽车 不 是 黑色 的 ， 而 是 柴油 动力 的 概率 是 多 少 ? ” 
题 中 汽车 颜色 与 燃料 种 类 是 独立 事件 ,计算 随机 选 
择 的 汽车 不 是 黑色 的 而 是 柴油 动力 的 概率 即 两 个 
独立 事件 发 生 的 概率 (as)， 当 被 试 掌握 os 时 即 能 
够 解决 问题 ， 故 a 不 是 必需 的 。 在 5、6、7、8、11、 
12 这 6 道 题 中 ，wm 不 是 必需 的 ，Wald-XPD 方法 均 


正确 修正 了 错误 标定 的 w 。 所 以 说 , 使 用 Wald-XPD 
修正 方法 获得 的 Qxpp 窍 阵 在 理论 上 具有 合理 性 。 

值得 注意 的 是 , 本 人 研究 中 提出 的 Q@ 和 矩阵 修正 方 
法 是 从 作答 数据 出 发 的 , 在 一 定 程度 上 可 以 避免 专 
家 标定 Q 矩阵 的 主观 性 , 减轻 专家 负担 , 但 是 客观 
方法 标定 的 Q FEREA TBA BE ARAN Q ABE, 
应 该 作为 专家 标定 Q HEM A EE BSS (Xu & Shang, 
2018). 

6 讨论 与 展望 
6.1 结论 与 讨论 

CDM 依赖 正确 设 定 的 Q FE MELA RAS ETA EI] Je 
性 剖面 分 类 (Rupp & Templin, 2008)。 以 往 研 究 者 提 
出 的 GDI, Wald-IC, Hull 方法 在 多 数 的 应 用 情景 
中 虽然 有 较 好 的 表现 , 但 这 些 方法 对 Q 和 矩阵 中 错误 
标定 的 属性 不 够 敏感 ,本 人 研究 提出 使 用 完整 的 XPD 
和 矩阵 计算 用 于 Q 矩阵 修正 的 方法 (Wald-XPD 方法 )， 
并 系统 探讨 了 样本 量 、 测 验 长 度 、Q 矩阵 错误 设 定 
比例 、 属 性 分 布 等 因素 对 Q 和 矩阵 修正 结果 的 影响 。 
采用 实证 数据 展示 了 新 提出 的 Wald-XPD 方法 在 实 
际 应 用 中 的 表现 与 价值 。 

本 研究 结果 表明 : (1) 整 体 而 言 ，Wald-XPD J 
法 的 表现 优 于 GDI, Hull, Wald-IC 方法 。Wald-XPD 
方法 能 够 弥补 GDI, Hull, Wald-IC 方法 在 一 些 条 
件 下 对 于 错误 标定 属性 不 敏感 的 不 足 之 处 , HE Q 
矩阵 恢复 率 和 保留 正确 标定 属性 的 比例 方面 也 有 
较 好 的 表现 。(2) GDI、Hull、Wald-IC 和 Wald-XPD 
方法 随 着 项 目 质量 的 提高 、 样 本 量 增 大 、 测 验 长 度 
增加 以 及 Q 和 窍 阵 错误 设 定 比例 的 降低 ,在 修正 Q 
矩阵 上 有 更 好 的 表现 。(3) 由 HullP、Wald-IC 以 及 
Wald-XPD 方法 进一步 比较 的 结果 可 知 , 3 种 方法 在 
Q 矩阵 恢复 率 方 面 差 异 较 小 HullP, Wald-IC 在 保 
留 正 确 标定 的 属性 方面 的 表现 略 优 于 Wald-XPD 77 
法 , 但 在 所 有 模拟 条 件 下 ，Wald-XPD 方法 在 修正 
错误 标定 的 属性 方面 的 表现 均 优 于 另外 两 种 方法 。 
(4) 实 证 数据 分 析 的 结果 表明 ，Wald-XPD 方法 修正 
后 的 Q 矩阵 与 原始 数据 有 最 优 的 拟 合 度 。 

在 本 研究 操纵 的 S 种 因素 中 , 项 目 质量 对 GDI, 
Hull, Wald-IC , Wald-XPD 方法 表现 的 影响 较 大 , 样 
本 量 和 测验 长 度 也 对 4 种 修正 方法 的 表现 有 一 定 的 
影响 。 出 现 这 种 现象 的 原因 可 能 是 , 项 目 质量 越 高 、 
样本 量 越 大 以 及 测验 长 度 越 长 ， 被 试 观 察 作 答 反 应 
矩阵 中 包含 的 关于 CDM 中 未 知 参 数 的 信息 越 多 ， 
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因此 ,以 上 4 种 方法 的 表现 也 就 越 好 。 与 以 往 研究 
类 似 (Kang et al., 2019; Ma & de la Torre, 2020; 
Najera et al., 2021), 本 研究 同样 认为 属性 分 布 对 于 
GDI、Hull、Wald-IC、Wald-XPD 方法 在 TNR 指标 
上 的 表现 有 细微 的 影响 。 出 现 这 种 现象 的 原因 可 能 
是 ， 当 属性 服从 均匀 分 布 时 所 有 可 能 属性 掌握 模式 
分 布 的 概率 是 相等 的 ， 即 被 试 观察 作答 反应 和 矩阵 中 
包含 的 关于 结构 参数 的 信息 是 一 样 的 。 当 属性 服从 
高 阶 分 布 时 , 属性 之 间 存 在 一 定 的 关联 性 , 使 某 些 
属性 擎 握 模 式 分 布 的 概率 可 能 会 比较 高 ， 另 外 一 些 
属性 掌握 模式 分 布 的 概率 会 比较 低 ， 故 被 试 观察 作 
答 反 应 矩阵 中 包含 的 结构 参数 的 信息 量 较 少 , 于 是 ， 
当 属 性 服从 均匀 分 布 时 , 4 种 方法 在 各 个 指标 上 的 
表现 略 优 ,Q 和 矩阵 错误 设 定 的 比例 对 GDI、Wald-IC、 
Hull 方 法 表现 的 影响 较 大 ,， 随 着 QE EREE EE 
例 的 降低 ， 它 们 能 够 获得 更 高 的 QRR TPR 和 TNR 
E, 这 与 已 有 研究 结果 一 致 (Ma & de la Torre, 2020; 
Najera et al., 2021)。 然 而 , Q 和 矩阵 错误 设 定 的 比例 
对 Wald-XPD 方法 表现 的 影响 则 相对 较 小 , 结合 
Wald-XPD 在 TNR 指标 上 的 表现 , 本 研究 认为 可 能 
是 Wald-XPD 在 迭代 结束 前 的 循环 中 能 够 有 效 修正 
Q 和 矩阵 错误 标定 的 属性 。 

此 外 ,研究 结果 表明 ，Wald-XPD 方法 在 TPR 
和 TNR 指标 上 与 Wald-IC、HullP 方法 的 表现 不 同 。 
fr TPR 指标 上 ，Wald-XPD 受 项 目 质量 低 的 影响 明 
fi, YE TNR 指标 上 , Wald-IC 和 HullP 受 项 目 质量 低 
以 及 测验 长 度 短 这 两 种 因素 的 影响 明显 。TPR 指标 
数值 低 , 说 明 Q@ 和 矩阵 修正 方法 倾 和 器 于 修改 正确 标定 
的 属性 , TNR 数值 低 则 说 明 Q 和 矩阵 修正 方法 修改 错 
误 标定 属性 的 能 力 弱 。 综合 TPR, TNR 两 个 指标 可 
AH, 虽然 Wald-XPD 方法 在 项 目 质量 较 低 的 条 件 下 
能 够 较为 有 效 地 修正 错误 标定 的 属性 , 但 是 存在 过 
度 修改 正确 标定 属性 的 倾 癌 。 换 言 之 ，Wald-XPD 
方法 虽然 提高 了 Q 和 矩阵 修正 的 表现 , 但 是 在 项 目 质 
量 较 低 的 条 件 下 ， 有 可 能 会 错误 地 修正 了 正确 标 
定 的 9 元 素 。Wald-IC 以 及 HullP 虽然 在 项 目 质量 
较 低 的 条 件 下 不 存在 过 度 修改 正确 标定 属性 的 倾 


Wald-XPD 方法 考虑 模型 中 的 全 部 参数 且 采 用 迭代 
的 方式 进行 , 在 一 些 条 件 下 可 能 耗 时 较 长 。 例 如 ， 
Wald-XPD 方法 最 短 的 平均 用 时 是 12.50 s, 最 长 的 
平均 时 间 需 要 746.01 s。Wald-XPD 方法 在 各 个 模 
拟 条 件 下 的 平均 运行 时 间 见 表 5。 
62 TRE 

本 研究 提出 的 Wald-XPD 方 法 在 Q FEMME IEF 
有 较 好 的 表现 , 但 仍 存在 一 些 不 足 之 处 , 值得 后 续 
研究 者 进一步 探讨 。 (1) 虽 然 Wald-XPD 统计 量 有 明 
确 的 渐 近 分 布 (x 分 布 ), 不 需要 像 GDI 类 方法 那样 
人 为 地 确定 一 个 截止 值 , 但 限于 研究 目的 和 篇 幅 本 
文 仅 在 0.05 显著 性 水 平 上 对 于 Wald-XPD 统计 量 的 
表现 进行 了 显著 性 检验 ， 未 来 研究 者 可 以 进一步 探 
讨 不 同 的 显著 性 水 平 对 于 Wald-XPD 统计 量 表现 的 
影响 。(C) 本 研究 仅 以 完整 信息 矩阵 中 的 XPD 和 矩阵 
构建 Wald 统计 量 进行 Q 和 矩阵 修正 , 除了 XPD 矩阵 
之 外 ,人 研究 者 还 可 以 将 其 他 完整 信息 和 矩阵 构建 的 
Wald 统计 量 用 于 Q ABIRE TE, W Liu 等 人 (2021) 提 
出 改进 的 观察 信息 矩阵 以 及 三 明治 信息 和 矩阵。 不 同 
类 型 的 完整 信息 矩阵 构建 的 Wald 统计 量 在 Q 矩阵 
修正 中 的 表现 也 值得 进一步 研究 。(3) 本 研究 仅 在 
G-DINA 模型 下 对 Q 和 矩阵 修正 方法 进行 了 对 比 研究 ， 
G-DINA 模型 适用 于 0-1 计 分 的 测验 情景 , 但 在 心 
理 与 教育 测验 中 存在 较 多 的 多 级 计 分 数据 。 研 究 者 
们 开发 了 很 多 能 用 于 多 级 计 分 的 CDM， 如 多 级 计 
分 GDM (von Davier，2008), 研究 者 可 以 将 Wald- 
XPD 方法 拓展 到 多 级 计 分 模型 中 ,并 考察 其 在 多 
级 计 分 模型 中 的 表现 。(4) 本 人 研究 在 考察 新 提出 的 
Wald-XPD 方法 的 表现 时 ， 仅 与 一 次 修正 的 GDI, 
Wald-IC 方法 进行 了 比较 , 研究 者 也 认为 GDI, 
Wald-IC 方法 可 以 迭代 进行 , 如 迭代 GDI 方 法 (N&jera 
et al., 2020)。 此 外 , 还 有 其 他 迭代 修正 的 方法 ， 如 
迭代 修正 序列 搜索 (Terzi & de la Torre, 2018)“, Ht 
究 者 也 可 以 尝试 将 这 些 方法 与 Wald-XPD 方法 进行 
比较 。(5) Wang 等 人 (2020) 评 佑 了 在 Q FEMA Te 
知 的 情况 下 , GDI FI Wald-IC 方 法 在 估计 新 项 目的 q 
向 量 中 的 表现 。 基于 此 ,未 来 研究 者 可 以 在 QE 


向 , 但 却 无 法 有 效 修正 错误 标定 的 属性 ,尤其 是 
HullP 方法 。 所 以 , 本 研究 建议 使 用 Q EBEN 
TEIN, 需要 注意 项 目 质量 , 若 项 目 质 量 较 低 ， 可 以 
结合 多 种 修正 方法 、 参 考 专家 意见 进而 获得 准确 的 
Q 和 矩阵 。 

本 研究 采用 C++ 语言 编写 XPD FARE, 在 一 定 
程度 上 能 够 提高 Q 矩阵 修正 的 速度 , 但 是 ， 由 于 


部 分 已 知 的 情况 下 进一步 评估 Wald-XPD 方法 估计 
Q FARM, SOCAN Q MATTIE, ih 
ICC-IR Zr 3E QE X, 高 旭 亮 , Bete 45, 2018). W 
然 比 D- 方 法 ( 喻 晓 锋 等 , 2015)、 非 参数 Q ERER 
准 (Lim & Drasgow, 2017)、 两 阶段 搜索 算法 (Feng， 
2013)、 似 然 比 检验 (Wang et al., 2020) 等 方法 进行 
比较 。 
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表 5 Wald-XPD 方法 在 各 模拟 条 件 下 的 平均 运行 时 间 (s) 


模拟 条 件 AD OM IO N JK 时 间 
1 均匀 分 布 0.15 0.4 500 4 476.16 
2 高 阶 分 布 0.15 0.4 500 4 195.68 
3 均匀 分 布 0.15 0.4 500 8 706.40 
4 高 阶 分 布 0.15 0.4 500 8 654.93 
5 均匀 分 布 0.15 0.4 1000 4 302.90 
6 高 阶 分 布 0.15 0.4 1000 4 746.01* 
7 均匀 分 布 0.15 0.4 1000 8 505.79 
8 高 阶 分 布 0.15 0.4 1000 8 320.67 
9 均匀 分 布 0.15 0.6 500 4 68.17 
10 高 阶 分 布 0.15 0.6 500 4 67.66 
11 均匀 分 布 0.15 0.6 500 8 54.11 
12 高 阶 分 布 0.15 0.6 500 8 81.36 
13 均匀 分 布 0.15 0.6 1000 4 21.35 
14 高 阶 分 布 0.15 0.6 1000 4 90.22 
15 均匀 分 布 0.15 0.6 1000 8 56.11 
16 高 阶 分 布 0.15 0.6 1000 8 113.40 
17 均匀 分 布 0.15 0.8 500 4 12.93 
18 高 阶 分 布 0.15 0.8 500 4 21.20 
19 均匀 分 布 0.15 0.8 500 8 23.63 
20 高 阶 分 布 0.15 0.8 500 8 46.23 
21 均匀 分 布 0.15 0.8 1000 4 12.97 
22 高 阶 分 布 0.15 0.8 1000 4 12.50# 
23 均匀 分 布 0.15 0.8 1000 8 48.36 
24 高 阶 分 布 0.15 0.8 1000 8 32.42 
25 均匀 分 布 0.3 0.4 500 4 114.85 
26 高 阶 分 布 0.3 0.4 500 4 223.68 
27 均匀 分 布 0.3 0.4 500 8 750.26 
28 高 阶 分 布 0.3 0.4 500 8 310.86 
29 均匀 分 布 0.3 0.4 1000 4 163.41 
30 高 阶 分 布 0.3 0.4 1000 4 226.47 
31 均匀 分 布 0.3 0.4 1000 8 510.00 
32 高 阶 分 布 0.3 0.4 1000 8 696.73 
33 均匀 分 布 0.3 0.6 500 4 63.20 
34 高 阶 分 布 0.3 0.6 500 4 111.59 
35 均匀 分 布 0.3 0.6 500 8 64.36 
36 高 阶 分 布 0.3 0.6 500 8 111.91 
37 均匀 分 布 0.3 0.6 1000 4 61.61 
38 高 阶 分 布 0.3 0.6 1000 4 77.84 
39 均匀 分 布 0.3 0.6 1000 8 95.48 
40 高 阶 分 布 0.3 0.6 1000 8 152.57 
41 均匀 分 布 0.3 0.8 500 4 45.05 
42 高 阶 分 布 0.3 0.8 500 4 12.75 
43 均匀 分 布 0.3 0.8 500 8 22.22 
44 高 阶 分 布 0.3 0.8 500 8 72.12 
45 均匀 分 布 0.3 0.8 1000 4 15.34 
46 高 阶 分 布 0.3 0.8 1000 4 25.56 
47 均匀 分 布 0.3 0.8 1000 8 54.40 
48 高 阶 分 布 0.3 0.8 1000 8 190.39 


ik: * 为 Wald-XPD 方法 在 模拟 条 件 下 的 最 长 运行 时 间 , # 为 Wald-XPD 方法 在 模拟 条 件 下 的 最 短 运行 时 间 。 
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Abstract 

A Q-matrix, which defines the relations between latent attributes and items, is a central building block of 
the cognitive diagnostic models (CDMs). In practice, a Q-matrix is usually specified subjectively by domain 
experts, which might contain some misspecifications. The misspecified Q-matrix could cause several serious 
problems, such as inaccurate model parameters and erroneous attribute profile classifications. Several Q-matrix 
validation methods have been developed in the literature, such as the G-DINA discrimination index (GDI), Wald 
test based on an incomplete information matrix (Wald-IC), and Hull methods. Although these methods have 
shown promising results on Q-matrix recovery rate (QRR) and true positive rate (TPR), a common drawback of 
these methods is that they obtain poor results on true negative rate (TNR). It is important to note that the worse 
performance of the Wald-IC method on TNR might be caused by the incorrect computation of the information 
matrix. 

A new Q-matrix validation method is proposed in this paper that constructs a Wald test with a complete 
empirical cross-product information matrix (XPD). A simulation study was conducted to evaluate the performance 
of the Wald-XPD method and compare it with GDI, Wald-IC, and Hull methods. Five factors that may influence 
the performance of Q-matrix validation were manipulated. Attribute patterns were generated following either a 
uniform distribution or a higher-order distribution. The misspecification rate was set to two levels: OM = 0.15 
and OM = 0.3. Two sample sizes were manipulated: 500 and 1000. The three levels of IQ were defined as high 
IQ, P; (0) ~ U (0, 0.2) and P; (1) ~ U (0.8, 1); medium IQ, P;(0) ~ U (0.1, 0.3) and P; (1) ~ U (0.7, 0.9); and low 
IQ, P; (0) ~ U (0.2, 0.4) and P;(1) ~ U (0.6, 0.8). The number of attributes was fixed at K = 4. Two ratios of the 
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number of items to attribute were considered in the study: J = 16[(K = 4)x(JK = 4)] and J = 32[(K = 4)x(JK = 8)]. 

The simulation results showed the following. 

(1) The Wald-XPD method always provided the best results or was close to the best-performing method 
across the different factor levels, especially in the terms of the TNR. The HullP and Wald-IC methods produced 
larger values of QRR and TPR but smaller values of TNR. A similar pattern was observed between HullP and 
HullR, with HullP being better than HullR. Among the Q-matrix validation methods considered in this study, the 
GDI method was the worst performer. 

(2) The results from the comparison of the HullP, Wald-IC, and Wald-XPD methods suggested that the 
Wald-XPD method is more preferred for Q-matrix validation. Even though the HullP and Wald-IC methods 
could provide higher TPR values when the conditions were particularly unfavorable (e.g., low item quality, short 
test length, and low sample size), they obtain very low TNR values. The practical application of the Wald-XPD 
method was illustrated using real data. 

In conclusion, the Wald-XPD method has excellent power to detect and correct misspecified q-entry. In 
addition, it is a generic method that can serve as an important complement to domain experts' judgement, which 
could reduce their workload. 

Keywords cognitive diagnostic models, Q-matrix, XPD information matrix, Wald test 


